记录一下看到的单细胞文献里面有意思的数据分析现象,希望给读者朋友们也带来一点起伏!
一直在筹备专栏《100个单细胞转录组数据降维聚类分群图表复现》,挑选到一个很有意思的文章,是:《Single-Cell Transcriptional Profiling Reveals Cellular Diversity and Intercommunication in the Mouse Heart》,单细胞数据在:E-MTAB-6173.
实验设计很有意思:
We prepared cells from 2 female and 2 male mouse hearts and then performed flow cytometry to sort metabolically active and nucleated cells and to artifi- cially deplete endothelial cells. We pooled cells from the first female and male and from the second female and male. We loaded $12,000 cells into 1 channel of the Chromium system for each of these 2 pooled samples and pre- pared libraries according to the manufacturer’s protocol (10x Genomics) and then performed Illumina sequencing
也就是说雌雄小鼠个两只,但是你只有两个10x的单细胞转录组样品,也就是说每次都是混合两个性别不一样的小鼠进行混合测序哦!
最开始的降维聚类分群很简单,看前面的例子:人人都能学会的单细胞聚类分群注释 即可,如下所示:
然后有意思的就来了,在文章的最后一个分析点,是根据 female- (Xist) and male-specific genes (6 Y chro- mosome genes: Ddx3y, Eif2s3y, Erdr1, Gm29650, Kdm5d, and Uty; 基因表达量,就可以把单细胞按照性别区分开来了,如下所示:
可以看到,在降维聚类分群里面,细胞性别是并不能取决定性作用的。细胞仍然是按照主要的细胞亚群来进行区分,也就是如果来根据性别进行分组,就是强行找差异,作者不仅仅是这样做了,而且还大大方方的发表和解释了这个结果,因为作者有深厚的生物学背景知识,文章关心的这个疾病的男女发病率很不一样,所以他们想看看是不是性别差异:
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
通常是火山图和MA图展现差异分析结果:
火山图是为了说明log2FC比较大的一般来说具有统计学显著性 而MA图是为了说明log2FC无论大小,都不应该与表达量有相关性。
但是文章作者这里采取的是两个分组的平均表达量的散点图来展现差异分析结果,仍然是大同小异哈!
更多高级可视化,在这里作者把部分差异基因拆解开来,在不同细胞亚群看性别差异是否明显 :
可以看到性别差异基因,在不同细胞亚群还不一样,可以描述的就非常多了,比如 Among male macrophages, we found evidence that
male-upregulated genes tend to play a role in responding to foreign antigens, with signif- icant GO enrichment for terms including antigen processing and presentation via MHC class II molecules as well as the broader immune response (adjusted p < 0.001; Table S6). In contrast, female-upregulated genes in macrophages were enriched for processes involving response to stress and the electron trans- port chain (Table S6).
单细胞混样测序如果是多个肿瘤病人呢?
这里研究者是测序了两个10x的单细胞转录组样品,也就是说每次都是混合两个性别不一样的小鼠进行混合测序哦!所以每个样品里面的两个小鼠可以根据性别基因表达量进行拆分出来,但是如果是多只老鼠呢?或者说单细胞混样测序如果是多个肿瘤病人呢?
学徒作业
找到文章《Tumor Cell Biodiversity Drives Microenvironmental Reprogramming in Liver Cancer》的数据集:GSE125449 ,有19个肿瘤病人但是却只有2个10x样品,认真查看其给出来了的表达量矩阵4个文件:
Supplementary file Size Download File type/resource
GSE125449_Set1_barcodes.tsv.gz 25.4 Kb (ftp)(http) TSV
GSE125449_Set1_genes.tsv.gz 154.7 Kb (ftp)(http) TSV
GSE125449_Set1_matrix.mtx.gz 25.5 Mb (ftp)(http) MTX
GSE125449_Set1_samples.txt.gz 32.7 Kb (ftp)(http) TXT
搞清楚肿瘤病人单细胞混样测序后如何区分?
如果你对单细胞数据分析还没有基础认知,可以看基础10讲: